2019届毕业论文(设计)

 

 

 

 

                                          

论文(设计)题目  京东家电评论分析-以洗衣机为例  

 

子课题题目                                       

 

 

 

     吴邦灵                 

     151503410015           

所属院系  数学学院               

专业年级  应用统计2015        

指导教师  李娴                    

 

20198


 

评论是人们购物后对商品或者购物体验的一个真实反馈,评论信息包含人们最真实的感受也包含了人们对未来的产品或服务的接纳程度和期望,在线评论的内容通常包含了商品的质量、快递物流服务、店家的售后和客服的企业服务等全部内容或者部分内容。本文通过评论提取商品的特征词和服务特征词,用包含特征词的评论数占总评论数的比例作为回归模型的解释变量,探索洗衣机价格的影响因子。

本文使用了Python获取了480个商品的的211832条评论,对数据进行清洗后,利用spss19.0450组数据进行回归分析,拟合出洗衣机半对数形式的价格特征模型,分析洗衣机价格由哪些特征或属性构成以及构成的权重大小。模型的结果显示洗衣机价格中除去最低生产成本,安装、功能和外观占较大的权重,说明人们愿意为洗衣机中的这几个功效支付更多的费用,即店家在安装服务、功能的设计、外观设计的投入对价格的提升是显著的;声音、衣服和脱水这三个权重为负且差距不大,说明这几个功效容易对价格产生负面的影响,三个中任意一个的优化对价格的提升具有相同的效果。洗衣机的价格是所有特征的综合反映和表现,只要其中某个特征改变价格也随之改变。模型的结果反映了各个特征的权重,可以为厂家改良产品和产品定价提供一定的参考。

 

 

关键词洗衣机; 价格; 在线评论; 网络爬虫; 中文分词;


Abstract

A review is a real feedback on a product or shopping experience after a person has made a purchase. The commentary contains the true feelings of people and the acceptance and expectation of future products or services. The content of online reviews usually includes the quality of the products. All or part of the express logistics service, the after-sales service of the store and the corporate service of the customer service. In this paper, the feature words and service feature words of the commodity are extracted through comments, and the proportion of the number of comments containing the feature words to the total number of comments is used as the explanatory variable of the regression model to explore the influence factor of the washing machine price.

This article used Python to obtain 211,832 comments on 480 products. After cleaning the data, regression analysis was performed on 450 sets of data using spss19.0, and the price characteristic model of the semi-logarithmic form of the washing machine was fitted to analyze the price of the washing machine. Which features or attributes constitute and the weight of the constituents. The results of the model show that the minimum production cost is removed from the washing machine price, and the installation, function and appearance take a large weight, indicating that people are willing to pay more for these functions in the washing machine, that is, the installation service, function design, The investment in design is significant for the price increase; the three weights of sound, clothes and dehydration are negative and the gap is not large, indicating that these effects are easy to have a negative impact on the price, and the optimization of the price of any one of the three The promotion has the same effect. The price of a washing machine is a comprehensive reflection and performance of all features, as long as one of the characteristics changes the price. The results of the model reflect the weight of each feature and can provide a reference for manufacturers to improve product and product pricing.

 

 

Keywords: Washing machine; Price; Online comment; Web crawler; Chinese word segmentation;


 

第一章 绪论.................................................................................................................... 1

1.1 研究背景和意义....................................................................................................... 1

1.2 国内外研究现状....................................................................................................... 1

1.3 研究思路和研究框架............................................................................................... 2

1.3.1 研究思路................................................................................................................ 2

1.3.2 研究框架................................................................................................................ 2

第二章 相关理论基础.................................................................................................... 4

2.1爬虫............................................................................................................................ 4

2.1.1 网络爬虫的概念.................................................................................................... 4

2.1.2 爬虫的分类............................................................................................................ 4

2.1.3 反爬虫机制............................................................................................................ 5

2.2 中文分词................................................................................................................... 6

2.2.1 规则分词................................................................................................................ 6

2.2.2 统计分词................................................................................................................ 7

2.2.3 混合分词................................................................................................................ 7

2.3 多元线性回归........................................................................................................... 8

2.3.1 多元线性回归模型的一般形式............................................................................ 8

2.3.2 回归参数估计........................................................................................................ 8

2.3.3 多元线性回归模型的检验.................................................................................... 9

第三章 评论的获取、预处理和属性特征词的提取.................................................. 11

3.1 数据获取................................................................................................................. 11

3.2 语料预处理............................................................................................................. 12

3.3 关键词的提取......................................................................................................... 13

第四章 数据初探和回归分析...................................................................................... 15

4.1 数据初探................................................................................................................. 15

4.1.1 价格...................................................................................................................... 15

4.1.2 评论日期.............................................................................................................. 16

4.1.3 洗涤容量.............................................................................................................. 17

4.1.4 能级...................................................................................................................... 17

4.1.5 颜色...................................................................................................................... 18

4.1.6 评论关注点.......................................................................................................... 19

4.2 模型建立................................................................................................................. 20

4.2.1 数据准备.............................................................................................................. 20

4.2.2 模型的建立.......................................................................................................... 22

4.2.3 检验...................................................................................................................... 23

4.2.4 逐步回归.............................................................................................................. 24

第五章 模型解读与总结.............................................................................................. 29

5.1 模型解读................................................................................................................. 29

5.2 总结与展望............................................................................................................. 30

5.2.1 总结...................................................................................................................... 30

5.2.2 展望...................................................................................................................... 31

参考文献........................................................................................................................ 32

谢辞................................................................................................................................ 33

附录................................................................................................................................ 34

 


第一章 绪论

1.1 研究背景和意义

电商的发展改变了人们的购买方式,扩大了我们商品的选择范围。购买地球另一边的商品也变得容易,这种购买方式为人们带来了机会,过去我们的购物主题是货柜现在更多的是包裹,电商是互联网经济重要的组成部分,电商健康良好的发展有利于经济的发展,在电商这块大蛋糕中不断有新的平台来参与竞争,例如拼多多、云集等后起之秀。

在天猫、京东、苏宁易购、唯品会、淘宝、国美、拼多多以及一些新的平台如云集、萌推等中拥有海量评论,这些评论可以挖掘洗衣机的功能与服务存在的问题。由于人们生活质量的提高和农村三农政策的推动都加大了人们对洗衣机的需求,除了常见的海尔、TCL、美的、西门子等老品牌,小米也在小米生态中增加了小米洗衣机。探究有哪些因素影响洗衣机价格具有一定价值。

1.2 国内外研究现

非结构化的在线评论包含着结构化数据没法记录的信息,从数量上看非结构化数据远远大于结构化数据,所以对非结构化数据的挖掘具有重大意义。大多数非结构化数据以句子、声音、文章为载体,在文本数据中对数据处理的第一步是分词、句法分析、提取信息,然后根据问题获取的信息应用到各个场景去产生价值。比如舆情分析、电子商务、在线评论、分类、命名实体识别、情感分类等应用场景。在以上应用中的效果取决于中文分词提取的信息准确性。

代表文献有:沈艳,宋燕燕,(2016[1]在新闻标题的选择上,根据文章的关键词是文章的中心思想,在针对海量的文章时关键词对主干特征往往具有较好的代表性;李泽(2018[2]等认为Python处理文本的jieba库具有高效快速适用语言较多的结论;潘诺愚(2017[3]等通过对词频统计规律的研究,运用文档中各频次的分布规律,可以提高文本处理性能。

Popesce(2005)[4]等根据商品的名称和商品的属性特征词共现对其属性进行标记,同时对文本的句法结构进行分析,提高了对属性特征词切分的准确性。Ghost(2007)[5]等经过对亚马逊平台交易数据分析,认为可以通过商家取得的商品价格溢价来计算用户评论性文本中所使用词汇的“经济价值”,用以判断文本中的句子情感极性。Main2015[6]通过改进在线评论意见的挖掘的范式,对常见的词运用一组过滤器利用NLP技术自动识别产品特征属性,并在此基础上发现特性属性的近义词。Wang2016[7]等对亚马逊386款数码相机的评论数据几个情感分析和计量模型,分析用户购买意愿与产品的特征评价的关系。

通过在线评论提取人们对洗衣机的描述,找到人们的关注点,通过已有的数据和回归模型去量化各个特征的权重,有助于人们了解洗衣机和店家了解消费者购买和使用洗衣机的感受。

1.3 研究思路和研究框架

1.3.1 研究思路

根据研究的问题和研究目的查找相关文献并进行整理,然后用Jupyter notebookPython爬虫获取销量排名前500商品的数据,然后对获得的数据中的错误值进行剔除和筛选,再对数据进行提取得到各个变量的数据。

spss19.0对数据进行回归拟合得到洗衣机价格的特征模型,对模型进行解释并根据模型给出厂家或者店家合理的建议。完成由评论分析洗衣机价格特征的目的。

1.3.2 研究框架

本文分为五个章节,各章节如下:

第一章主要介绍了研究的背景、研究的意义和国内外研究的现状,对电商平台发展、洗衣机的前景和中文分词的应用进行了描述。指出了研究对象和研究中的核心问题。

第二章是理论介绍,包括爬虫的类型和反爬机制、中文分词理论介绍和对回归模型理论的介绍。

第三章对部分数据进行描述性分析(价格、能级、颜色、评论日期、好评率),再用jieba库进行分词得到提取关键词和高频词。

第四章的第一部分对商品参数进行描述统计,作出包括价格、能级、评论日期和词云的图表并对其进行说明。第二部分进行回归分析,用逐步回归优化模型得到最终模型并解读模型。

第五章对此次论文研究的内容进行总结,包括偏好和模型的意义,在展望中指出该评论信息还存在的研究内容。

 


第二章 相关理论基础

2.1爬虫

网络爬虫技术在数据时代是从事数据分析行业者应有的技能,能够帮助人们方便在广阔的互联网中获取信息,降低获取数据成本和增加收集信息的范围。

2.1.1 网络爬虫的概念

网络爬虫(Web crawler)是一种自动抓取互联网信息的程序或脚本。根据人们制定的规则向服务器发送请求,在返回的信息中按照规则获取我们想要的内容。各大网络搜索引擎(如百度、Google等)与其较为相似的网站都可以看成一种规模较大的通用爬虫。它们结合正则表达式主动抓取所有能爬取到的网络页面,用以获取或更新这些网站的内容和检索方式。狭义的网络爬虫的定义为,即在标准的http协议基础上抓取程序,依据超链接以及web文档检索方法自动遍历互联网信息空间。广义的网络爬虫定义为,所有能利用http协议自动检索web文档的方法。

在实际应用中常见的网络爬虫架构由控制器、解析器和资源库三个部分组成。控制器负责是给多线程中的各个爬虫的线程分配工作任务,做到优化资源。解析器的功能是下载网络页面并解析网页(在Python中常用的第三方库BeautifulSoupreLxml来解析网页,使用时结合实际情况灵活运用)如一些JS脚本标签、CSS代码内容、空格字符、HTML标签等。资源库是用来储存下载的网页资源。

有一些小说网站、微博、论坛、购物网站商品信息和用户评论信息的URL具有一定的规律,只要找到URL中的参数规律获取这类网站的信息就很的容易,可以使用常用的软件程序(如PythonJavaR等)使用少量的代码从网页中获取自己想要的信息,然后将数据存储在文档或者数据库中。

2.1.2 爬虫的分类

网络爬虫根据系统的结构及实现技术的不同,通常可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。在实际运用中根据需要可以由不同爬虫的特点组合使用,能够达到获取信息更加干净、大大提高爬虫的性能。[8]

在爬取中发现京东网页使用异步加载技术,使得后半的网页为动态加载,使用抓包技术找到URL后分析URL的参数,找到规律得到后半数据的URL集,获得到完整的网页数据。异步加载的目的是为节约网络资源,不过在一定程度上也具有反爬效果。

2.1.3 反爬虫机制

爬虫对于一些网站来说是不受欢迎的,一方面是在数据时代的今天一些数据是具有很高价值的,人们并不想这些数据被别人获取,另一方面大量的爬虫或者高频率的访问对中小型的网站的服务器来说是极具破坏力的。为此针对爬虫的“君子协议”——robots协议即网站有权规定网站中哪些内容可以被爬虫爬取。这样既可以保护隐私和敏感信息,又可以被搜引擎收录、增加流量。可是这也只是口头的协议,要达到目的还是需要具体的技术反爬。就拿电商网站来说很多电商网站是愿意被比价网站或者其他购物信息网站爬取的,因为这样能够给他们的商品带来更多浏览量。但他们不愿被对手获取价格信息和商品描述,担心其他电商网站恶意比价或进行抄袭。同时他们又经常去爬其他电商网站的数据,希望能够看到别人的价格。所以像京东淘宝这样的大网站,都会在协议中写清楚,禁止对方爬取哪方面的数据。在过去有过这样的数据产权和数据安全方面的纠纷,结果往往是取证的不易和漫长的诉讼。最后爬虫和反爬虫演变成获取商业利益和反制对手的对抗,要使用爬虫就必须了解有哪些反爬虫机制。

爬虫就是防止爬虫访问,因为网站只希望用户去访问而不希望爬虫去访问。一般的Web网站从用户请求头、用户行为、Web目录与数据加载模式三个方面去进行反爬。反爬给爬虫带来了效率低下、稳定性差和成本增加的问题。为了不被网站识别出为爬虫,这里介绍了三种常见的处理反爬虫机制的策略。

1伪装为用户浏览器

在爬虫中增加http协议中的User-Agent字段,在服务器获得请求时告诉服务器访问者是通过具体的那个版本的浏览器发出的请求,因为任何人都可以使用浏览器访问网络对IP没有限制。

2改变访问请求频率

如果网站发现用户和一般用户访问次数规律差异较大,同样会认为是爬虫,因为一个人访问网站的次数是有一定范围的。为了解决这个问题就得在一定时间内限制访问次数,我们可以通过设休眠函数机制规避网站对爬行识别,缺点就是降低了爬虫的效率。

3设置代理服务器

同一个网络IP和端口如果同一时间对服务器进行异常的访问次数也会被网站认为是爬虫,为此网站可能会返回空值或者返回与之不相关的信息。为了解决这个问题使用代理服务器每隔一段时间切换网络IP和端口,通过这种方式来麻痹服务器对主机频繁访问的限定。该方法增加了爬取的成本还增加了切换带来的延迟,也不能减少被访问服务器的负载率。

在实际的爬虫中以上的三种策略自己根据访问网站的实际情况建议都使用,由于京东对爬虫较为友好在本次论文使用了第一、第二策略,在有代理服务器的情况下还可以使用多进程来提高爬虫效率。

2.2 中文分词

中文分词属于自然语言处理技术范畴,对于一句话或则一段话,人可以用自己习得的知识来或者人的理解区分哪些是词,哪些是句子。但要让计算机也能理解?其处理过程的第一步就是分词算法,中文分词是其他中文信息处理的基础。自中文分词被提出来经过30多年的探索,针对不同的文本提出很多方法,大致可分为“规则分词”,“统计分词”,“混合分词(规则+统计)”这个三个流派,同时也是算法较为成熟的。“理解分词”还在实验阶段,即在分词的同时考虑语句大大提高了分词效果。

2.2.1 规则分词

规则分词是最早的分词方法,主要是通过人工建立词库,按一定的方式逐一的进行匹配切分,在切分语句时语句的每个字符串与词表进行逐一匹配,找到则切分,否则不予切分。按照切分方式主要有正向最大匹配法、逆向最大匹配法及双向最大匹配法,优点是简单、高效,缺点是十分依赖词库、对新词无识别能力由于汉语中偏正结构较多,逆向匹配法比正向的误差要小。有统计表明单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245[14]。而双向最大匹配则是使用两种匹配的结果进行比较后的结果,采用切分次数最少的一个作为最终的结果,所以双向最大匹配法在实用中文信息处理中广泛使用。

2.2.2 统计分词

从中文结构上看词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字XY的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多 的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行字符串匹配,同时使用统计方法识别一些新的词,即统计和字符串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法[10]。对于中文词的识别,需要多种算法 来处理不同的问题。

2.2.3 混合分词

实际上,就目前而言不管是基于规则的算法还是基于HMMCRF或者是deep learning等方法,其分词效果在具体操作中效果差距不明显,在实际工程应用中,更多的是基于一种分词算法,其他分词加以修正。最常见的是先基于词典的方法进行分词,在根据统计分词进行修补,特别是歧义和新词的识别。本文对文本的处理所使用的jieba分词工具正是基于规则和统计的两类方法实现分词的。

Jieba分词算法的核心为:[11]

1、基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

2、采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合。

3、对于未登录词,采用了基于汉字成词能力的HMM 模型,使用了Viterbi 算法。

Jiaba分词可以基于不同语言实现有着不同语言的版本,常见的有R版本、Java版本、C++版本等十多种版本。本文使用的jiebaPython中的一个优秀的中文分词库,它不仅有分词功能,也是一个开源框架,提供了很多在分词之上的算法,如关键字提取、词性标注等。

2.3 多元线性回归

2.3.1 多元线性回归模型的一般形式

设随机变量与一般变量的线性回归模型为[12]

式中,个未知参数,称为回归常数,为回归系数[12]称为被解释变量(因变量),个可以精确测量并控制的一般变量,称为解释变量(自变量)[12]

2.3.2 回归参数估计

对于回归模型的参数估计,常见的是使用最小二乘法去寻找,就是寻找参数的估计值,使离差平方和:

        2-1

由式(2-1)求出的就称为回归参数最小二乘估计。

                                      2-2

为经验回归方程。

2.3.3 多元线性回归模型的检验

1)拟合优度检验

利用拟合优度检验回归方程与样本值的拟合程度,并将样本确定系数定义为:

其中为回归平方和,为总离差平方和,为残差平方和[12];样本决定系数的取值在区间内,用来衡量拟合方程对问题的解释效果,但具体多大好没有标准,同时在实际问题中也不是越大越好,更不能为了追求更高的而忽略或抛弃业务中的基础性问题。

检验[12]

原假设

如果被接受,则表明随机变量之间的关系由线性回归模型表示不合适。与一元线性回归检验相似,为了建立检验的F统计量,仍然使用总偏差和的分解公式[12],即

F统计量:

在正态假设下,当初始假设成立时,自由度服从为分布。因而我们可以用统计量对回归方程的总体显著性进行检验。对于给定的数据,计算出,进而得到的值,如表2.1所示:

2.1 方差分析表

方差来源

自由度

平方和

均方

F

P

回归

残差

总和

时,拒绝原假设,认为在显著性水平下,有显著的线性关系,即回归方程的显著的。反之,当时,则认为回归方程不显著。像线性回归一样,它也可以在P值的基础上进行测试。

2)回归系数检验

在多元线性回归中,回归方程显著并不意味着每一个自变量对y的影响都显著,我们总是从回归方程中剔除那些次要、无关紧要的变量,重新建立更加简单的回归方程,是以需要对每个自变量进行显著性检验[12]

原假设:

备择假设:

 

接受原假设,则不显著;拒绝原假设,则是显著的。

构造t统计量[12]

                                                        2-3

当原假设成立时,由式(2-3)构造的统计量服从分布。在给定的显著水平上查出双侧检验的临界值,当时,原来的假设被拒绝,认为显著不为零,自变量的线性效果显著[3];当时,接受原假设,认为为零,自变量对因变量的线性效果不显著。


第三章 评论的获取、预处理和属性特征词的提取

3.1 数据获取

本次的研究对象是洗衣机的评论文本,爬取京东洗衣机销量排名靠前商品的评论,一页共计60个商品前30个商品为静态网页,后30个为异步加载,一次请求只能获取前30个商品,为获得后30个商品使用抓包找到URL并解析各个重要参数,获得完整简洁的URL,再次请求获得后30个商品。总共11页共计660个不同的洗衣机商品编号,在对数据进行筛选后可爬取对象共计480个,然后根据商品ID爬取了商品以下参数作为可能用到的变量。

3.1 商品参数

变量名称

变量内容

商品编号

商品id(数字文本)在京东的定位

价格

数值型(单位元)

能级等级

明确的有12级到5

机电类型

有变频和定频两类

洗涤容量

5kg以下到10kg以上

颜色

例如金色、银色、白色等常见颜色

店铺名称

网店名称

累计评论数

该商品到爬取数据时的评论总数

好评率

好评数/总评论数

好评数

好评字符串数总数

中评数

中评字符串数总数

差评数

差评字符串数总数

 

在获取数据中充分运用了第二章的每个爬虫技术,最后将数据储存在汇总商品参数.csv”中。

一页评论平均有10条数据,根据爬取的“累计评论数”中针对每个商品爬取150页,共计210288条数据。其中包含内容为;

3.2 评论参数

变量名称

变量内容

评论内容

评论字符串

评论时间

评论日期

评论设备

安卓或苹果

评论得分

15

 

在用集合对评论文本去重后剩下有效的评论数据为210989条。

3.2 语料预处理

在评论时间里包含消费者提交评论的月份,提交评论时间近似为购买时间,用消费者购买的时间找到洗衣机在各个月份的销售量。能级、颜色、容量等变量可以获取的人们对洗衣机这些参数的偏好。对文本进行去重中,先建立一个空集合再将每条评论逐一写入集合,根据集合的互异性特点达到去重目的,然后再将数据写入txt文件中用来进行分词。获取语料后使用Python中的jiaba分词默认的精确模式进行分词,得到分词后的分词列表。使用下面的Python程序获取词频。

第一次进行分词得到词频文件后人工筛选不包含信息的词加入停用词表中,在更新停用词表后再次进行分词得到词频表,根据提取的高频词找出评论中的服务特征和属性特征,再结合关键词的结果选取以下词。

 

3.1 高频词分类

 

3.3 关键词的提取

关键词即为文档的核心词汇,在本文中使用TF-IDF算法提取关评论的键词,TF-IDFTerm Frequency-Inverse Document Frequency,词频-逆文档频次)一种基于统计的方法,常用来评估在一个文档中一个词对这个文档的重要的程度。TF-IDF算法由TF算法和IDF算法组成。TF算法是统计一个词在一篇文档中出现的次数,理由是一个词在文章中出现次数越高,则其对文档的表达能力越强。而IDF算法是统计一个词在文档集中的多少个文档中出现,理由是一个词在越少的文档中出现,则其对文档的区分能力越强[13]TF的计算公式为: [14]

其中表示词i在文档中j中的出现的次数,如果仅用词频来衡量,在长文本中一个词出现的机会就会增大,关键词的权值比较效果会有偏差。为此对每个词的词频都除以文档的总词数来进行归一化处理。IDF的计算公式为:[14]

其中是文档集中总文档数,为文档中出现的词i的文档数量。为了增强算法的健壮性,在分母加1是为了因出现新词而语料库中没有而使分母为零的状况。而TF-IDF算法就是把TFIDF两种算法的特点结合相互修正两算法的缺陷,在实际使用中根据文本的结构进行可以组合使用。经过大量的理论推导和实验研究发现下式:[14]


是较为有效的计算方式之一[13]。在本次论文中使用jieba.analyse.extract_tags来实现关键词的获取。在返回的结果中,会返回各个关键词的权重根据权重越高的越有可能为关键词。根据jieba.analyse.extract_tags所得关键词和得分情况;

3.3 关键词得分表

序号

好评关键词

得分

差评关键词

得分

1

安装

0.189711

客服

0.159187

2

干净

0.121024

安装

0.084412

3

送货

0.119409

售后

0.075714

4

声音

0.110137

衣服

0.053626

5

衣服

0.093453

脱水

0.054246

6

物流

0.086417

质量

0.051064

7

外观

0.083526

物流

0.043566

 
第四章 数据初探和回归分析

4.1 数据初探

通过爬虫获得的数据中有洗衣机的价格、能级、容量、颜色、好评率、评论时间、评论内容,通过这些数据我们可以对洗衣机的做个初步的探索,通过数据了解人们在对这些指标的偏好。

4.1.1 价格

所取得的价格数据中,最小值为139、最大值为6499、均值为1421.44、标准差为987.75可以看出数据差异相对较大,对价格进行对数变换,理由是数据具有增长的特性。对数据进行对数变换加以修正,直方图看出处理后的数据大致符合正态分,研究对象具有正态性。

4.1 价格分布

4.1.2 评论日期

在一些评论数排名靠前的商品一个评论数就达4030多万,而本次评论数只有20万所以在爬取数据时爬取时间较近的比重也就大,为了减小这种情况的影响,剔除2019年的评论时间,选取20162018159232条评论提交日期,以月份绘制了下图;

4.2评论月份图

从图中可以看出两点,第一点是6月份和相邻的月份较为突出其次是10月到12月,从平台活动来看6.18是促销节日,人们可能出于价格的原因会增加购买有需求的。10月份并没有促销节日但评论数依然高出很多,11月的11日也没有为11月获得更多的评论数,而10月到12月的评论数为什么会这样的异常。原因是10月是秋末冬初人们感受到温度的变化,对于需要洗衣机的人来说冰冷的刺激和冬季自然风干时间的增加都使人们购买洗衣机的欲望比什么时候都来的强烈。从图4.2可以知道洗衣机的销售旺季在冬季。如果对于自冬季有需求的消费者,个人建议最好不在10月购买最好在9月,因为从服务来说在10月或者10月以后随订单的加大,配送或安装的服务人员的工作强度会加大,此时在服务上的体验会打折扣。对于店家来说由于冬季购买洗衣机的欲望比任何季节都来得强,大部分消费者都希望在冰冷的冬天尽快使用洗衣机,所以在物流上要更好的把关,在这个时候延期配送对消费者的来说是个坏消息。准时和快速的物流能够增加消费者对同品牌其他产品的好印象。对下次购买同品牌的其他家电增加了可能。

4.1.3 洗涤容量

根据洗涤容量数据绘制了下面的柱状图,可以清晰看出5kg8kg的产品较多。通常对容量的选择是与使用者的人数有关,人越多则将会选择越大的容量。5kg的通常为两口之家或者和两口之家相近的人数或者是低容量的婴儿专用,8kg的适合四口、五口之家。根据洗衣机大多数为家庭使用,个人是很少购买或者购买5kg及以下的,购买者多数是为家庭购买。在5kg的容量中TCL699元、5.5公斤、波轮洗衣机的优势,达到47万评论数排名第一。第二的是8kg的海尔以20991级能效、滚筒定频频达35万条评论数。海尔、美的、小天鹅、三洋、西门子等紧排其后。排名靠前的依然有TCL,特点是不超过1000元和容量5kg左右,是短期居住者的合适之选。

4.3容量图

4.1.4 能级

通过能级和价格的散点图可以直观看出,能级等级数越低越节能价格越高;

4.4能级价格图

图中为482个商品的能级与价格的散点图,可以看出480个商品中1能级和3能级的产品较多图形较密,在数据中1能级的价格最低的已超过1000大部分集中在2000同时也有6000左右的的。本次采集的数据中1能级的机电都是变频,其中滚筒占只有,由此可以看出滚筒类的洗衣机较为节能。而3级的大多数为低于1000的低容量的波轮洗衣机或者为半自动的高容量洗衣机。480个商品中1能级的有155个商品3能级的有161看起来3能级的比较多,但从评论数量来看1能级的有76984563能级的有3758656个,1能级的销售量是3能级的2倍,可以看出大家对1能级的更加青睐。一方面是节能技术的提升降低了生产成本,另一方面是人们对环保意识的提升。可以看出2能级的数量在1能级和3能级之间,这是因为这类的洗衣机在节能上不及1级在价格上又没3级的优势。还有4级和5级从数量上可以看出随着时间的推移这类的产品将会越来越少。对厂家而言提升节能技术在未来行业中尤为重要。对消费者而言从数据上看1能级和3能级的产品能有更好的功能的体验和性价比。

4.1.5 颜色

480个商品中除去“其他”项的数据绘制颜色汇总图。由图中可以看出白色远远多于其他颜色,其次是银色。白色较为耐脏,和大多数卫生间都容易搭配,也很美观还有和大多数使用者为女性的特征,所以白色较为受欢迎。银色也由于在成本上比白色高,在搭配上没有白色广所以略逊一筹。

4.5颜色汇总图

在颜色挑选中自己喜欢和安置地颜色的搭配最为重要,但从数据来看在不知道选什么颜色好的时候白色或银色或许是一个不错的选择。

4.1.6 评论关注点

在京东的评论评分中45分为好评、3分为中评、12分为差评,在210288条评论中分别挑出好评和差评的评论使用Pythonjieba库去完成对中文的处理,经过以下流程后用京东logo和洗衣机为背景制作了好评和差评的词云图。

好评词云                           差评词云

4.6词云图

在好评和差评中各选取前100个高频词绘制词云,虽然看起来杂乱无章,但从中还是可以看出好评和差评的一些亮点。例如好评中提到了安装、声音、物流、衣服、干净、很快、操作等,也有一些品牌的名字如海尔、美的等。差评中提到了客服、安装、质量、售货等。

4.2 模型建立

4.2.1 数据准备

把价格的对数作为为因变量,以下参数作为自变量;

4.1变量说明表

因变量

价格的自然对数

取值范围为[4.934473933,8.779403598]

连续变量

 

自变量

能级(衍生变量)

数据为0,1,2,3

1能级-1(基底),2能级-23能级-3, 4能级-4, 5能级-5,其他-6

颜色衍生变量

数据为0,1,2,3

-0(基底)灰-1,银色-2,金色-3,其他为-4

功能

在各个商品评论数的频数除以商品的总评论数

 

安装

在各个商品评论出现的频数除以商品的总评论数

 

声音

在各个商品评论出现的频数除以商品的总评论数

 

衣服

在各个商品评论出现的频数除以商品的总评论数

 

物流

在各个商品评论出现的频数除以商品的总评论数

 

客服

在各个商品评论出现的频数除以商品的总评论数

 

质量

在各个商品评论出现的频数除以商品的总评论数

 

外观

在各个商品评论出现的频数除以商品的总评论数

 

脱水

在各个商品评论出现的频数除以商品的总评论数

 

根据变量绘制矩阵散点图来观察各个变量间的相关性;

4.7矩阵散点图

4.2.2 模型的建立

spss来对回归模型进行拟合[3],输出结果如表4.2

4.2 系数表

模型

非标准化系数

标准系数

 

B

标准 误差

试用版

t

Sig.

1

(常量)

7.114

.092

 

77.220

.000

能级衍生变量

-.200

.017

-.377

-11.998

.000

颜色衍生变量

.000

.009

-.002

-.108

.914

安装

2.468

.167

.484

14.784

.000

客服

-.350

.670

-.013

-.522

.602

声音

-.871

.219

-.140

-3.975

.000

外观

1.355

.362

.101

3.747

.000

质量

1.142

.424

.060

2.695

.007

脱水

-1.255

.347

-.079

-3.615

.000

物流

-1.317

.585

-.058

-2.250

.025

衣服

-.966

.214

-.115

-4.507

.000

功能

1.884

.274

.209

6.884

.000

可以得出11个自变量的线性回归方程为:

从回归系数可以看出安装、功能、质量、外观和关注词在价格中为加分项,能级、客服、声音、脱水、物流和衣服容易成为价格的减分项,其中还可以看出颜色的系数为零即颜色几乎不影响价格。在加分项和减分项中服务特征和商品特征几乎各占一半,所以价格高的洗衣机容易让人满意,从技术上来说一台洗衣机所有项都想高分是不容易的。

4.2.3 检验

为了验证模型的有效性及各因素对价格的影响是否显著,需要进行模型检验及参数检验,首先我们要进行的是拟合优度检验,由spss的到如下结果:

4.3 模型表

模型

R

R

调整 R

标准 估计的误差

1

.931a

.867

.864

.31980633

,模型拟合效果较好。接下来进行F检验,看模型(3-1)是否有效。

提出假设:

备择假设:

不全为零

采用spss计算出方差分析结果如下表3-4

4.4 系数

模型

平方和

df

均方

F

Sig.

1

回归

292.427

11

26.584

259.927

.000a

残差

44.797

438

.102

--

--

总计

337.224

449

--

--

--

从上表可以看出Sig.即为显著性P值,在显著性水平为,得到的(近似值),小于0.05,因此拒绝原假设,并认为在的条件下,回归方程是高度显著。通过检验可以看出模型拟合优度较好,VIF膨胀因子都没超过4小于10,多重共线性微弱,方程通过检验,最后对模型进行回归系数的显著性检验,检验结果如表3-5

提出原假设:

备择假设:

不全为零

spss计算结果如下表

4.5 系数

模型

非标准化系数

标准系数

 

B

标准 误差

试用版

t

Sig.

1

(常量)

7.114

.092

 

77.220

.000

能级衍生变量

-.200

.017

-.377

-11.998

.000

颜色衍生变量

.000

.009

-.002

-.108

.914

安装

2.468

.167

.484

14.784

.000

客服

-.350

.670

-.013

-.522

.602

声音

-.871

.219

-.140

-3.975

.000

外观

1.355

.362

.101

3.747

.000

质量

1.142

.424

.060

2.695

.007

脱水

-1.255

.347

-.079

-3.615

.000

物流

-1.317

.585

-.058

-2.250

.025

衣服

-.966

.214

-.115

-4.507

.000

功能

1.884

.274

.209

6.884

.000

由表3.5看出大部分系数都是显著的,颜色系数、客服系数和物流系数未通过显著性测试,也就是说在对解释变量的合理选择上可以再进一步优化。可以考虑采用逐步回归法找出最佳拟合模型。

4.2.4 逐步回归

由于颜色变量不显著,采用逐步回归方法选择主要变量。结果如表4.6

 

4.6 模型汇总

模型

 

R

R

调整 R

标准 估计的误差

1

.843a

.710

.709

.46733421

2

.900b

.810

.810

.37812395

3

.908c

.824

.823

.36437959

4

.924d

.853

.852

.33326967

5

.926e

.858

.856

.32833344

6

.928f

.861

.859

.32548171

7

.929g

.864

.862

.32222356

由表4.6可以得出:模型的在逐渐增大到最后一个最大,说明最后一个线性回归方程拟合效果最好,所以逐步回归的最优子集是最后一个模型。

4.7 系数

模型

平方和

df

均方

F

Sig.

1

回归

239.381

1

239.381

1096.059

.000a

残差

97.844

448

.218

 

 

总计

337.224

449

 

 

 

2

回归

273.313

2

136.657

955.790

.000b

残差

63.911

447

.143

 

 

总计

337.224

449

 

 

 

3

回归

278.008

3

92.669

697.955

.000c

残差

59.217

446

.133

 

 

总计

337.224

449

 

 

 

4

回归

287.799

4

71.950

647.795

.000d

残差

49.426

445

.111

 

 

总计

337.224

449

 

 

 

5

回归

289.360

5

57.872

536.832

.000e

残差

47.864

444

.108

 

 

总计

337.224

449

 

 

 

6

回归

290.294

6

48.382

456.702

.000f

残差

46.931

443

.106

 

 

总计

337.224

449

 

 

 

7

回归

291.332

7

41.619

400.845

.000g

残差

45.892

442

.104

 

 

总计

337.224

449

 

 

 

由表3-7可以看出7个模型都通过检验,由之前的表可知第7个模型的R方最大

现在检查各个模型系数的显著性;

3.8 系数

模型

非标准化系数

标准系数

 

B

标准 误差

试用版

t

Sig.

1

(常量)

5.986

.035

 

170.048

.000

安装

4.293

.130

.843

33.107

.000

2

(常量)

7.043

.074

 

94.787

.000

安装

2.515

.156

.493

16.118

.000

能级衍生变量

-.250

.016

-.472

-15.405

.000

3

(常量)

7.206

.077

 

93.955

.000

安装

2.970

.169

.583

17.604

.000

能级衍生变量

-.258

.016

-.486

-16.428

.000

声音

-.967

.163

-.155

-5.946

.000

4

(常量)

7.228

.070

 

102.982

.000

安装

2.587

.160

.508

16.210

.000

能级衍生变量

-.256

.014

-.483

-17.839

.000

声音

-1.552

.161

-.249

-9.625

.000

功能

2.084

.222

.231

9.389

.000

5

(常量)

7.213

.069

 

104.137

.000

安装

2.498

.159

.490

15.719

.000

能级衍生变量

-.226

.016

-.427

-13.972

.000

声音

-1.162

.189

-.186

-6.149

.000

功能

2.372

.231

.263

10.250

.000

衣服

-.824

.216

-.098

-3.805

.000

6

(常量)

7.139

.073

 

97.759

.000

安装

2.487

.158

.488

15.782

.000

能级衍生变量

-.217

.016

-.409

-13.283

.000

声音

-1.221

.188

-.196

-6.482

.000

功能

2.040

.255

.226

7.998

.000

衣服

-.910

.217

-.108

-4.203

.000

外观

1.059

.357

.079

2.969

.003

7

(常量)

7.107

.073

 

97.358

.000

安装

2.366

.161

.464

14.723

.000

能级衍生变量

-.204

.017

-.385

-12.209

.000

声音

-.916

.210

-.147

-4.365

.000

功能

1.981

.253

.219

7.821

.000

衣服

-.952

.215

-.113

-4.430

.000

外观

1.203

.356

.090

3.379

.001

脱水

-1.083

.343

-.068

-3.163

.002

从两次拟合来看,第一次拟合的结果是方程显著性通过。R方反映模型的解释能力还让人满意,可是有3个解释变量的系数检验未通过,通过逐步回归来逐一对解释变量进行拟合。7个模型的显著性和系数显著性都通过,选取R较大解释变量最多的第7模型作为最终的拟合模型;

 4-2

最后做回归标准残差图判断回归模型的正态性假设是否成立来支撑模型的合理性;

4.8 P-P

 

标准化残差图回归模型的残差服从正态分布、变量之间共线性微弱、方差齐次,符合经典线性回归模型假设条件,模型估具有统计意义。

由于价格进行了对数变换现在对其进行还原,还原后模型为;


第五章 模型解读与总结

5.1 模型解读

回顾我们的研究目的是探索洗衣机价格的影响因子,来帮助店家或者厂家在定价上给予参考,

5.1各因素权重表

(常量)

7.107

 

安装

2.366

 

能级衍生变量

-.204

基准:1能级为1

声音

-.916

 

功能

1.981

衣服

-.952

外观

1.203

脱水

-1.083

一款新的洗衣机出厂,生产成本决定了价格的底线是模型中的常值也就是曲线的截距,洗衣机各方面的性能表现和商家的服务将成为洗衣机加价的砝码。那如何定价合适呢。由权重可以看出安装系数、功能系数和外观系数都为正,说明人们在评论中提到和这几个关键词较高的商品价格会更高,如果产品和服务在这几个方面做得较好可以得到个好的价格。能级系数、声音系数和衣服系数这个几个系数为负,可以解释为能级等级更低比如1级能级,洗衣机的声音更小和对衣服的伤害更小可以提高价格。声音和衣服的系数差距很小,说明两个因素对洗衣机的影响程度相同。所得方程为洗衣机价格的半弹性方程各个的系数解释为;

即安装每增加一个单位洗衣机价格平均增加2.366%

即能级每增加一个单位洗衣机价格平均减少0.204%

即声音每增加一个单位洗衣机价格平均减少0.916%

即功能每增加一个单位洗衣机价格平均增加1.981%

即衣服每增加一个单位洗衣机价格平均减少0.952%

即外观每增加一个单位洗衣机价格平均增加1.203%

即脱水每增加一个单位洗衣机价格平均减少1.083%

由模型的结论,在实际应用中可以通过控制其他因素不变,改变一个因素看价格变化,了解各个因素的需求变化,为新产品的改进提供方向,也可以根据产品在各项特征的得分与行业平均水平的差距来合理定价。

5.2 总结与展望

5.2.1 总结

Python爬虫获得洗衣机的在线评论和商品的其他特征,如价格、能级、颜色好评率等,在偏好描述过程发现价格和好评率没有相关关系,通过人们提交的20多万条评论日期,发现洗衣机的销售旺季早冬季, 618的家电促销对销量还是有明显的提升,但和入冬时比起来相差很多,说明价格和需相比说需求才是王道,在第一次拟合的模型中发现颜色和价格的关系不显著。通过中文分词提炼出文本中的信息找到洗衣机价格的隐形因素,通过建立回归模型来对洗衣机价格的特征因素分解。得到洗衣机的特征价格模型,了解洗衣机价格鲜为人知在各个洗衣机特征的权重。结合权重和人们购买洗衣机是为了得到洗衣机效用的目的,可以得出在商品其他特征不变的情况下提高安装服务能显著提高人们对洗衣机的效用感受,大大增加消费者对商品的满意度。能级系数较小的原因是能级差异在洗衣机的使用中不易被察觉到,所以能级的效用对价格影响较小。声音、衣服和脱水的效用是对价格产生负面影响的主要原因,其中脱水影响最大,说明脱水功效在洗衣服的过程中较为重要。如果洗衣机的脱水功效较差对降价是最大的。

通过模型的权重厂家或者店家可以根据自身的优势,在对成本控制的情况下对与特征有关功能进行改进,给消费者感觉同等价格较好的效用,提高产品在消费者心中的性价比,达到增加销量、增加利润和扩大品牌知名度的目的。在新产品的定价方面,可以结合新产品各个特征得分选出相近得分产品的价格来作为定价的参考。

5.2.2 展望

此次由于评论数较大所以忽略品牌,如果只专注具体的一个品牌通过评论挖掘,或许可给商家或者店家提供具体的建议。20万的评论其中蕴含的信息还有很多,例如评论的情感倾向;提交者的所在城市数据,可以了解洗衣机在各个城市中的市场空间;获取一个地区大部分购买洗衣机的容量数据,人们往往会根据人数去购买合适容量的洗衣机,在一定程度上可以去估计人口的比例和人口数量具有一定的参考意义。


参考文献

[1] 沈艳,宋燕燕.大数据时代的网络评论数据处理技术应用[J].今传媒,2016,24(12):112-113.

[2] 李泽,古超,龙政.基于Python的文本分析方法研究[J].电脑编程技巧与维护,2018(04):25-51.

[3] 潘若愚. 基于词频统计分析国内外文本挖掘的研究热点[A]. 中国管理现代化研究会、复旦管理学奖励基金会.第十二届(2017)中国管理学年会论文集[C].中国管理现代化研究会、复旦管理学奖励基金会:中国管理现代化研究会,2017:279-281.

[4] Popescu A M, Nguyen B, Etzioni O. OPINE: Extracting product features and opinions from reviews[C].British Columbia,Canada,2005:260-268.

[5] Ghose A,Iperotis PG.Designing novel review ranking systems: predicting usefulness and impact of reviews[C].New York,NY,USA:ACM, 2007:303-310.

[6] Mai F.Essays in Business Analytics[D]. University of Cincinnati,2015:177-180.

[7] Wang wei,Wang Hongwei.The Influence of Aspect-based Opinions on Users Purchase Intention Using Sentiment Analysis of Online Reviews[J].Systems Engineering-Theory&Practice,2016,36(1):63-76.

[8] 孙立伟 何国辉 吴礼发. 网络爬虫技术的研究[D]. 电脑知识与技术, 2010:101-110.

[9] 王献伟. 文本情感分析在商品评论中的应用研究[D]. 浙江工商大学, 2018:67-96.

[10] 蔡荣彦.面向未登录领域词切分的中文分词技术研究[J].信息系统工程,2013(11):133-136.

[11] Jieba中文使用文档 https://github.com/fxsjy/jieba.

[12] 何晓群,刘文卿.应用回归分析[M].北京:中国人民大学出版社,201557-73.

[13] 李军炜. 短文本用户评论的分类系统设计与实现[D].北京邮电大学,2018:155-163.

[14] 涂铭,刘祥,刘树春.Python自然语言处理实战:核心技术与算法[M]. 北京: 机械工业出版社,2018: 86-89.


谢辞

大学时光的余额已在接近零点,在此我想对我的母校,我的父母、亲人们,我的老师和同学们表达我由衷的谢意。

感谢我的家人对我大学四年学习的默默支持;感谢院系给了我们优秀的大学学习环境,让我接触了数学和统计,让我有了数学和统计的知识和思维去重新认识世界去为自己解惑;老师们课堂上把自己对自己所授学科的全部想法毫无保留的分享给了我们,课堂下的谆谆教诲;同学们在学习中的认真热情,生活上的热心主动,所有这些都让我的四年过得充实。

这次毕业论文设计我得到了很多老师和同学的帮助,我的论文指导老师李娴老师同时也是我数分三任课老师,对我的关心和支持尤为重要。从选题到查阅资料,论文题目的确定,开题报告,后期论文格式调整等各个环节中都给予指导、帮助和督促。在此谨向李娴老师致以诚挚的谢意和崇高的敬意。

同时,我要感谢所有教导过我、关心过我的老师,现在的知识体系几乎都来自各个任课老师的传授或影响,是他们的辛勤成就了我们,感谢四年来学院所有老师对我们的教导!最后,祝各位老师和同学身体健康、吉祥如意!


附录

获取ID

 id

获取商品各个参数数据;

id

 

 

 

爬取到的商品数据;

参数

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

根据id获取该商品的评论;

参数码

爬取到的评论;

评论数

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

对评论的处理;

评论提取

做回归分析的最终数据;

屏幕截图(27)